PaLM API textembedding-gecko 日本語未対応
2023/6/8 時点での記録です
結論
Language support
PaLM models currently only support English.
なんと〜 daiiz.icon
日本語での近傍探索の精度がすこぶる悪い
探索結果のdistanceがすべて等しいなんてあり得るの?
すべて同じベクトル値になってしまっているのでは
英語の精度は特に気にならなかった
OpenAIのAPIの出力と比べて次元数が半分なので期待していたが、いますぐには使えなそうだ
以降は調査メモ
実験コード
実験
見直しが必要なインデックス
my-index-gecko (5684483911694942208)
Embeddingの作り方をミスった可能性を疑う
1件ずつ慎重に再生成した
入力テキストが異なるのに完全一致しているEmbeddingが存在する
これは普通はおかしい
完全一致パターン1
https://gyazo.com/4ba924a7b5fd7515c8a1175b0bfe7fc9
→ 記事末尾の「日本語のみ」の6件
完全一致パターン2
https://gyazo.com/b6ae06dc1f11b68dbe9f9407a4448bb4
→ 記事末尾の「日本語と"!"」の2件
仮説
日本語の文字が完全に無視されているのではないか
各パターンは次のような文字列値として扱われている説
パターン1: ""
パターン2: "!"
検証
"!"のEmbeddingを求める
一致せず
おそらく内部的にはUnknownトークン[UNK]扱いされているのだろう
初期データテキストのリスト
日本語のみ
検索方法はまだ分からないですが、寿司は食べます
スパイシーチキンマックナゲット食べたい
はじめまして。
寿司食べたら動いた
近年に公開された大規模言語モデルの年表
ステーキ食べたい
日本語と"!"
いい朝ですね!
こんにちは!
半角アルファベットを含む
GCPの基礎から勉強し直した方がいいな
年表UIを考えたい!
技術書典オンラインマーケットで統計の森の「主要論文から把握する、BERT研究トレンド」を購入しました!
Hello! My name is daiiz.
【オフライン開催】Kyoto Tech Talk
google chrome
Vertex AI Matching Engineでのベクトル検索できた!!!!!
全米No.1 ソーセージ、ジョンソンヴィル。新鮮な「生」の豚ひき肉100%、秘伝のスパイスだから味わえるお肉本来のジューシーな旨みが自慢です
検索対象のドキュメントEmbeddingを予め計算しておき、クエリのEmbeddingの近傍にあるドキュメント郡を返す。
mozilla firefox
apple safari
VertexAI Matching Engineの実験用のインデックスのデプロイになんとか成功した🎉 0.094ドル/hourの課金が始まったけど、検索の仕方はまだ分からない!!!
Method: projects.locations.indexes.upsertDatapoints
折りたたみAndroidスマートフォン Pixel Fold
2023/6/8 おはようございます。寝落ちです。
Smaller embedding size. The new embeddings have only 1536 dimensions, one-eighth the size of davinci-001 embeddings, making the new embeddings more cost effective in working with vector databases.